《科学》连发两文!一秒设计全新蛋白质,AI带来又一革命性突破
在最新一期《科学》上,Baker教授团队连发两篇论文,呈现了AI设计蛋白质的最新突破:相比于传统手段,机器学习可以更加精准、快速地设计蛋白质分子,将设计蛋白质的时间长度从“月”缩短至“秒”。这项突破有望在全新疫苗、药物与治疗手段开发等领域带来新的革命。
当Baker教授团队意识到RosettaFold可以用来模拟多种相互作用蛋白的组装过程时,他们相信可以据此设计出能自我组装成纳米颗粒的蛋白质。但实际情况却是,他们设计的蛋白质却无法顺利折叠,不具备正常的功能。
如何解决所谓的蛋白质逆折叠问题,也就是根据给定的蛋白质结构,确定折叠成该结构的氨基酸序列?Baker实验室的答案是一种全新的深度学习工具:ProteinMPNN。ProteinMPNN借鉴了图像识别使用的神经网络,能够明确与特定结构相对应的序列。
在最新研究中,Baker教授团队将设计功能性蛋白质的挑战分解为3个部分,并且分别设计了解决方案。
▲ProteinMPNN设计出的蛋白质更可能按预期折叠(图片来源:Ian Haydon, UW Medicine Institute for Protein Design)
首先,是需要形成全新的蛋白质构型。在稍早前的一篇《科学》论文中,Baker教授团队指出,AI可以通过两种思路从头设计蛋白质。
其中一种是基于“幻想”(hallucination),简单来说,就是基于简单的提示实现输出:通过在所有可能的序列中进行搜索,来选择具有预期功能的序列。第二种是“修复”(inpainting),就类似于搜索栏的文字自动补齐功能。
▲“幻想”蛋白质示意图(图片来源:Sergey Ovchinnikov)
第二个挑战是,如何加速生产蛋白质的过程。为此,研究团队设计了一种用于生成氨基酸序列的新算法。在一篇最新的《科学》论文中, ProteinMPNN能以大约1秒的速度运行、设计蛋白质,相当于已有工具的至少200倍,运算结果也更优。
“当我们拥有海量数据时,训练神经网络很容易;但对于蛋白质,我们无法得到足够的样本。因此我们必须明确,这些分子中的哪些特征是最重要的。这有点像试错的过程。”Baker实验室的博士后Justas Dauparas说。
第三个挑战则是生成的序列的功能性。为此,研究团队使用AlphaFold来独立评估,他们设计的氨基酸序列能否按预期的方式折叠。
“ProteinMPNN的作用是设计蛋白质,而AlphaFold是预测蛋白质结构。”Baker教授说。
而在同期《科学》的另一篇论文,Baker教授团队证实,新型机器学习工具的联合使用能可靠地生成全新的功能性蛋白质。研究发现,使用ProteinMPNN生成的蛋白质更可能按预期计划折叠,因而他们可以用这些工具创造出非常复杂的蛋白质复合体。
参考资料:
[1] Wicky, B. I. M. et al. Hallucinating symmetric protein assemblies. Science https://doi.org/10.1126/science.add1964 (2022)
[2] Dauparas, J. et al. Robust deep learning based protein design using ProteinMPNN. Science https://doi.org/10.1126/science.add2187 (2022)
[3] Beyond AlphaFold: A.I. excels at creating new proteins. Retrieved Sep. 15th, 2022 from https://www.eurekalert.org/news-releases/964816
[4] Scientists are using AI to dream up revolutionary new proteins. Retrieved Sep. 15th, 2022 from https://www.nature.com/articles/d41586-022-02947-7
本文来自药明康德内容微信团队,欢迎转发到朋友圈,谢绝转载到其他平台。如有开设白名单需求,请在“学术经纬”公众号主页回复“转载”获取转载须知。其他合作需求,请联系wuxi_media@wuxiapptec.com。
免责声明:药明康德内容团队专注介绍全球生物医药健康研究进展。本文仅作信息交流之目的,文中观点不代表药明康德立场,亦不代表药明康德支持或反对文中观点。本文也不是治疗方案推荐。如需获得治疗方案指导,请前往正规医院就诊。